最近,数据增强已成为视觉识别任务的现代培训食谱的重要组成部分。但是,尽管有效性,但很少探索视频识别的数据增强。很少有用于视频识别的现有增强食谱通过将相同的操作应用于整个视频框架来天真地扩展图像增强方法。我们的主要思想是,每帧的增强操作的大小都需要随着时间的推移而更改,以捕获现实世界视频的时间变化。在训练过程中,应使用更少的额外超参数来尽可能多地生成这些变化。通过这种动机,我们提出了一个简单而有效的视频数据增强框架Dynaaugment。每个帧上增强操作的大小通过有效的机制,傅立叶采样更改,该采样将各种,平滑和现实的时间变化参数化。 Dynaaugment还包括一个适用于视频的扩展搜索空间,用于自动数据增强方法。 Dynaaugment在实验上表明,从各种视频模型的静态增强中可以改善其他性能室。具体而言,我们在各种视频数据集和任务上显示了Dynaaugment的有效性:大规模视频识别(Kinetics-400和Sothings-Something-v2),小规模视频识别(UCF-101和HMDB-51),精细元素视频识别(潜水48和FINEGYM),早餐的视频动作细分,Thumos'14上的视频动作本地化以及MOT17DET上的视频对象检测。 Dynaaugment还使视频模型能够学习更广泛的表示形式,以改善损坏视频的模型鲁棒性。
translated by 谷歌翻译
为了估计基于多视图的渲染中3D点的体积密度和颜色,一种常见的方法是检查给定的源图像特征之间的共识存在,这是估计过程的信息提示之一。为此,大多数以前的方法都利用了同样加权的聚合特征。但是,这可能会使在源图像功能集中包含一些经常通过遮挡发生的异常值时,很难检查共识存在。在本文中,我们提出了一种新颖的源视图特征聚合方法,该方法通过利用特征集中的局部结构来促进我们以强大的方式以强大的方式找到共识。我们首先计算提出的聚合的每个源特征的源视图距离分布。之后,将距离分布转换为几个相似性分布,并具有所提出的可学习相似性映射函数。最后,对于特征集中的每个元素,通过计算加权均值和方差来提取聚合特征,其中权重是从相似性分布得出的。在实验中,我们在各种基准数据集(包括合成和真实图像场景)上验证了所提出的方法。实验结果表明,合并提出的功能可以通过大幅度提高性能,从而提高最先进的性能。
translated by 谷歌翻译
Recent self-supervised video representation learning methods focus on maximizing the similarity between multiple augmented views from the same video and largely rely on the quality of generated views. However, most existing methods lack a mechanism to prevent representation learning from bias towards static information in the video. In this paper, we propose frequency augmentation (FreqAug), a spatio-temporal data augmentation method in the frequency domain for video representation learning. FreqAug stochastically removes specific frequency components from the video so that learned representation captures essential features more from the remaining information for various downstream tasks. Specifically, FreqAug pushes the model to focus more on dynamic features rather than static features in the video via dropping spatial or temporal low-frequency components. To verify the generality of the proposed method, we experiment with FreqAug on multiple self-supervised learning frameworks along with standard augmentations. Transferring the improved representation to five video action recognition and two temporal action localization downstream tasks shows consistent improvements over baselines.
translated by 谷歌翻译
Yes. In this paper, we investigate strong lottery tickets in generative models, the subnetworks that achieve good generative performance without any weight update. Neural network pruning is considered the main cornerstone of model compression for reducing the costs of computation and memory. Unfortunately, pruning a generative model has not been extensively explored, and all existing pruning algorithms suffer from excessive weight-training costs, performance degradation, limited generalizability, or complicated training. To address these problems, we propose to find a strong lottery ticket via moment-matching scores. Our experimental results show that the discovered subnetwork can perform similarly or better than the trained dense model even when only 10% of the weights remain. To the best of our knowledge, we are the first to show the existence of strong lottery tickets in generative models and provide an algorithm to find it stably. Our code and supplementary materials are publicly available.
translated by 谷歌翻译
图形上的神经扩散是一类新型的图形神经网络,最近引起了越来越多的关注。图形神经偏微分方程(PDE)的能力在解决图形神经网络(GNN)的常见障碍方面的能力,例如过度平滑和瓶颈的问题,但尚未对其对逆性攻击的稳健性。在这项工作中,我们探讨了图神经PDE的稳健性。我们从经验上证明,与其他GNN相比,图形神经PDE在本质上对拓扑扰动更为强大。我们通过利用在图形拓扑扰动下利用热半群的稳定性来提供对这一现象的见解。我们讨论了各种图扩散操作员,并将它们与现有的图神经PDE相关联。此外,我们提出了一个一般图形神经PDE框架,可以通过该框架来定义新的强大GNN。我们验证了新模型在多个基准数据集上实现了可比的最新性能。
translated by 谷歌翻译
异质图具有多个节点和边缘类型,并且在语义上比同质图更丰富。为了学习这种复杂的语义,许多用于异质图的图形神经网络方法使用Metapaths捕获节点之间的多跳相互作用。通常,非目标节点的功能未纳入学习过程。但是,可以存在涉及多个节点或边缘的非线性高阶相互作用。在本文中,我们提出了Simplicial Graph注意网络(SGAT),这是一种简单的复杂方法,可以通过将非目标节点的特征放在简单上来表示这种高阶相互作用。然后,我们使用注意机制和上邻接来生成表示。我们凭经验证明了方法在异质图数据集上使用节点分类任务的方法的功效,并进一步显示了SGAT通过采用随机节点特征来提取结构信息的能力。数值实验表明,SGAT的性能优于其他当前最新的异质图学习方法。
translated by 谷歌翻译
了解视频的时间动态是学习更好的视频表示的重要方面。最近,由于其能力捕获了输入序列的长期依赖性,因此对基于变压器的架构设计进行了广泛的探索。但是,我们发现这些视频变压器仍然有偏见地学习空间动力学而不是时间动力学,而伪造的虚假相关性对于它们的性能至关重要。根据观察结果,我们设计了简单而有效的自我监督任务,以便视频模型更好地学习时间动态。具体而言,对于借鉴空间偏见,我们的方法将视频框架的时间顺序作为额外的自我设计,并强制执行随机洗牌的框架以具有低信心的输出。此外,我们的方法还学习了连续帧之间视频令牌的时间流动方向,以增强与时间动力学的相关性。在各种视频动作识别任务下,我们证明了我们的方法的有效性及其与最先进的视频变压器的兼容性。
translated by 谷歌翻译
我们如何检测异常:也就是说,与给定的一组高维数据(例如图像或传感器数据)显着不同的样品?这是众多应用程序的实际问题,也与使学习算法对意外输入更强大的目标有关。自动编码器是一种流行的方法,部分原因是它们的简单性和降低维度的能力。但是,异常评分函数并不适应正常样品范围内重建误差的自然变化,这阻碍了它们检测实际异常的能力。在本文中,我们从经验上证明了局部适应性对具有真实数据的实验中异常评分的重要性。然后,我们提出了新颖的自适应重建基于错误的评分方法,该方法根据潜在空间的重建误差的局部行为来适应其评分。我们表明,这改善了各种基准数据集中相关基线的异常检测性能。
translated by 谷歌翻译
对抗性训练是为了增强针对对抗性攻击的鲁棒性,它引起了很多关注,因为它很容易产生人类侵蚀的数据扰动,以欺骗给定的深层神经网络。在本文中,我们提出了一种新的对抗性培训算法,该算法在理论上具有良好的动机和经验上优于其他现有算法。该算法的新功能是使用数据自适应正则化来鲁棒化预测模型。我们将更多的正则化应用于更容易受到对抗攻击的数据,反之亦然。尽管数据自适应正则化的想法并不是什么新鲜事物,但我们的数据自适应正则化具有牢固的理论基础,可以减少稳健风险的上限。数值实验表明,我们提出的算法同时提高了概括(清洁样品的准确性)和鲁棒性(对对抗性攻击的准确性),以实现最先进的性能。
translated by 谷歌翻译
肺癌是最致命的癌症之一,部分诊断和治疗取决于肿瘤的准确描绘。目前是最常见的方法的人以人为本的分割,须遵守观察者间变异性,并且考虑到专家只能提供注释的事实,也是耗时的。最近展示了有前途的结果,自动和半自动肿瘤分割方法。然而,随着不同的研究人员使用各种数据集和性能指标验证了其算法,可靠地评估这些方法仍然是一个开放的挑战。通过2018年IEEE视频和图像处理(VIP)杯竞赛创建的计算机断层摄影扫描(LOTUS)基准测试的肺起源肿瘤分割的目标是提供唯一的数据集和预定义的指标,因此不同的研究人员可以开发和以统一的方式评估他们的方法。 2018年VIP杯始于42个国家的全球参与,以获得竞争数据。在注册阶段,有129名成员组成了来自10个国家的28个团队,其中9个团队将其达到最后阶段,6队成功完成了所有必要的任务。简而言之,竞争期间提出的所有算法都是基于深度学习模型与假阳性降低技术相结合。三种决赛选手开发的方法表明,有希望的肿瘤细分导致导致越来越大的努力应降低假阳性率。本次竞争稿件概述了VIP-Cup挑战,以及所提出的算法和结果。
translated by 谷歌翻译